智能论文笔记

Compound virtual screening by learning-to-rank with gradient boosting decision tree and enrichment-based cumulative gain

Kairi Furui , Masahito Ohue

分类：计算机视觉 | 机器学习

2022-05-04

学习到级别是一种广泛用于信息检索的机器学习技术，最近已应用于基于配体的虚拟筛查问题，以加速新药开发的早期阶段。排名预测模型根据序数关系学习，使其适合从各种环境中集成测定数据。现有的化合物筛选中排名预测的研究通常使用了一种名为RankSVM的学习对方法。但是，尚未将它们与梯度提升决策树（GBDT）基于梯度的学习对级别的方法进行比较或验证，这些方法最近越来越受欢迎。此外，尽管称为归一化折扣累积增益（NDCG）的排名指标被广泛用于信息检索，但它仅确定预测是否比其他模型的预测更好。换句话说，NDCG无法识别何时预测模型比随机结果差。然而，NDCG仍用于使用学习级学习的化合物筛选的性能评估。这项研究使用了具有排名损失函数的GBDT模型，称为Lambdarank和Lambdaloss，用于基于配体的虚拟筛选。使用回归将结果与现有的RankSVM方法和GBDT模型进行比较。我们还提出了一个新的排名指标，标准化的富集折扣累积增益（NEDCG），旨在正确评估排名预测的好处。结果表明，使用GBDT和RankSVM在不同数据集上的GBDT模型优于现有的回归方法。此外，NEDCG表明，回归预测与多户多户数据集中的随机预测相当，这证明了其对更直接评估复合筛选性能的有用性。

translated by 谷歌翻译

受限的玻尔兹曼机器（RBMS）提供了一种用于无监督的机器学习的多功能体系结构，原则上可以以任意准确性近似任何目标概率分布。但是，RBM模型通常由于其计算复杂性而无法直接访问，并调用了Markov-Chain采样以分析学习概率分布。因此，对于培训和最终应用，希望拥有既准确又有效的采样器。我们强调，这两个目标通常相互竞争，无法同时实现。更具体地说，我们确定并定量地表征了RBM学习的三个制度：独立学习，精度提高而不会失去效率；相关学习，较高的精度需要较低的效率；和退化，精度和效率都不再改善甚至恶化。这些发现基于数值实验和启发式论点。

translated by 谷歌翻译